f H WF 4 QJHI I 
LninaxIV 瑟 3 IH TU 
第 37 郑 第 6 其 计算 机 应 用 研究 — o. 37 No. 6 
录用 定稿 Application Research of Computers deni Paper 


基于 图 聚 类 与 蚁 群 算法 的 社交 网 络 聚 类 算法 
EN 万 iFa 唐 GEO zm. MEER, 李 强 ， 


(1. 广东 东软 学 院 计算 机 科学 与 技术 系 , 广东 佛山 528225; 2. 广州 工商 学 院 计算 机 科学 与 工程 系 ,广州 510850; 
3. 重庆 市 九龙 坡 区 精神 卫生 中 心 , 重庆 400052; 4. 中 山大 学 电子 与 信息 工程 学 院 , 广州 510006) 


摘 E: 针对 社交 网 络 中 社交 关系 的 有 向 性 与 多 样 性 ， 提 出 了 一 种 基于 图 聚 类 与 蚁 群 算 法 的 社交 网 络 聚 类 算法 。 首 
先 ， 在 网 络 履 盖 率 的 约束 下 为 社交 网 络 建立 有 向 、 非 全 连接 的 二 维 图 模型 ; 然后 ， 采 用 K-medoids 算法 搜索 用 户 分 
组 的 中 心 用 户 ， 采 用 人 工 蚁 群 算法 在 2D 图 中 搜索 各 个 用 户 与 中 心 用 户 的 相似 性 ， 将 满足 相似 性 靖 值 的 用 户 分 为 同 
一 个 用 户 组 。 设 计 了 低 活 路 用 户 的 预测 机 制 解决 网 络 的 黎 疏 性 问题 与 冷 启动 问题 。 此 外 ， 通 过 网 络 履 盖 率 的 约束 条 
件 权 衡 聚 类 准确 率 与 履 盖 率 两 个 指标 。 仿 真实 验 结果 表明 ， 该 算法 实现 了 较 好 的 社交 网 络 聚 类 性 能 ， 并 且 有 效 地 缓 
解 了 稀疏 性 问题 与 冷 启动 问题 。 
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Abstract: Aiming at the properties of direction and diversity of social relationships in the social networks, this paper 
proposed a clustering algorithm of social networks based on graph clustering and ant colony optimization algorithm. Firstly, 


it constructed a directed and non fully connected complete graph for the social networks under constraint condition of 
network coverage; then, it adopted K-medoids algorithm to search the center users of all user groups, and it adopted ant 
colony optimization to search the similarities of each user and center users in the graph, it grouped the users satisfied the 
threshold condition into the same group. This paper also designed a prediction mechanism of low active degree users to 
resolve the sparsity problem and cold-start problem, besides, the network coverage constraint condition was set to balance 
the indexes of accuracy and coverage. Simulation experimental results indicate that the proposed algorithm realizes a good 


clustering performance of social networks, and it reduces the problems of sparsity and cold-start effectively. 
Key words: social networks; data mining; clustering process; ant colony optimization; graph clustering; trust information 


0 “引言 兴趣 已 经 成 为 了 一 种 弱 关 联 信息 ,此 外 还 应 当 考 虑 信任 传播 、 
ği 评论 信息 、 评 分 信息 等 。 文 献 [6] 提 出 了 一 种 基于 结构 相似 度 
随 着 微 博 、 微 信 、 豆 办 电影 以 及 网 易 云 音乐 等 各 种 应 用 的 有 向 网 络 聚 类 算法 ， 针 对 社交 网 络 的 有 向 交互 性 ， 该 算法 
的 普及 ， 导 致 不 同 领域 的 社交 网 络 飞 速 地 发 展 。 目 前 的 社交 ”考虑 了 节点 的 到 达 邻 居 ， 并 且 采 用 有 向 边 定义 直接 结构 可 达 
网 络 中 存在 多 种 社交 关系 ， 如 好 友 关 系 、 关 注 关 系 、 具 有 相 。 ”性 。 文 献 [7] 采 用 粒子 群 优化 算法 对 社交 网 络 进 行 寻 优 处 理 ， 
同 喜好 等 四。 社交 网 络 的 节点 与 连接 也 存在 多 样 化 的 属性 ， 等 网 络 结构 作为 粒子 群 的 目标 函数 ， 通 过 贪 禁 策略 引导 粒子 
千 统 的 网 络 聚 类 方法 主要 考虑 链接 的 稠密 度 ， 并 未 考虑 社交 。 ” 群 的 演化 过 程 ,文献 [6,7] 均 将 社交 网 络 结构 作为 聚 类 的 依据 ， 
网 络 的 多 样 性 。 此 外 ， 社 交 网 络 中 低 活跃 度 用 户 的 存在 也 为 但 是 在 网 络 构建 过 程 中 仅 考虑 了 直接 的 社交 关系 。 


社交 网 络 聚 类 效果 带 来 了 不 利 的 影响 证。 当前 的 社交 网 络 中 存在 多 样 化 的 关联 性 ， 除 了 强 关 系 ， 

除了 基于 链接 稠密 度 的 社交 网 络 聚 类 算法 B91, 目前 也 出 ”还 应 当 考 虑 各 种 弱 关 系 ， 包 括 关 注 关 系 、 信 任 传播 由 、 评 论 
岗 了 考虑 节点 多 样 性 、 强 弱 社 交 关 系 以 及 各 种 隐藏 信息 的 聚 言 息 、 评 分 信息 等 。 此 外 ， cus. 在 活跃 用 户 与 低 活 
类 算法 。 文 献 [5] 主 要 考虑 用 户 的 兴趣 相似 度 ， 基 于 贝 叶 斯 概 ， 跃 度 用 户 ， 而 低 活 跃 度 用 户 会 导致 稀疏 性 问题 ， 进 而 影响 聚 
率 模型 计算 用 户 兴 趣 的 相似 度 。 在 目前 多 样 化 的 社交 网 络 中 ， 类 的 准确 率 与 覆盖 率 钙 。 为 了 解决 上 述 问题 ， 提 出 一 种 基于 
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图 聚 类 与 蚁 群 算法 的 社交 网 络 聚 类 算法 (graph clustering and 
ant colony optimization social networks clustering algorithm, 
GC-ACO)。 在 覆盖 率 的 约束 下 建立 二 维 图 ， 从 而 保证 覆盖 率 
与 聚 类 准确 率 两 者 之 间 的 平衡 。 在 图 的 构建 过 程 中 ， 考 虑 了 
直接 信任 关系 、 信 任 传播 、 评 论 信息 等 多 样 化 信息 。 结 合 皮 
尔 森 相似 性 与 多 样 化 的 社交 关系 ， 以 期 解 诀 稀 疏 性 问题 ， 设 
计 了 低 活 跃 度 用 户 的 预测 机 制 ， 以 期 解决 冷 启动 问题 。 在 聚 
类 阶段 ,通过 ACO 算法 搜索 与 中 心 用 户 相似 性 最 高 的 用 户 ， 


提高 聚 类 的 准确 率 。 


1 ZERRE 

在 覆盖 率 约束 下 建立 二 维 图 能 够 有 效 
稀 疏 性 问题 。 相 似 性 度量 的 效果 高 度 依赖 
寻 此 提高 相似 性 度量 的 可 靠 性 ， 能 够 

度 。 
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信任 感知 的 社交 网 络 通过 预测 低 活跃 用 户 的 信息 以 提 
聚 类 的 准确 率 。 基 本 思想 是 假设 用 户 容 易 被 其 信任 度 高 的 
户 所 影响 ， 但 是 该 机 制 容易 导致 覆盖 率 降 低 。 许 多 研究 人 
发 现 ， 用 户 不 仅 受 直接 信任 用 户 影响 ， 而 且 也 会 受 间 接 用 户 
的 影响 ， 但 其 影响 力 随 着 两 个 用 户 的 距离 增加 而 减少 ， 该 理 
论 也 称 为 信任 传播 。 
设计 了 基于 信任 与 相似 性 的 图 模型 ， 该 模型 的 建立 算法 
如 算法 1 所 示 。 图 的 节点 表示 用 户 ; 边 表示 用 户 之 间 的 连接 ; 
连接 为 双 权 重 连接 ， 表 示 为 元 组 (W1,W2)=(pcc(u, v), T(u, v). 
其 中 pec 表示 相似 性 度量 ，7 表示 信任 传播 。 算 法 的 输入 为 
直接 信任 信息 、 间 接 信 任 信息 、 皮 尔 逊 相关 系数 (Pearson 
correlation coefficient, PCC) 以 及 信任 传播 最 大 距离 (MP)， 输 
出 为 社交 网 络 的 图 。 采 用 邻接 矩阵 表示 社交 图 。 根 据 用 户 之 
间 的 最 短路 径 计算 信任 传播 ，setdiff) 函 数 取 消 己 存在 的 新 连 
接 。 第 6 行 的 系数 VP 表示 两 个 用 户 距离 越 长 ， 其 信任 值 越 
低 。 


算法 1: 社交 网 络 的 图 建立 算法 
输入 : PCC 图 ， 信 任 图 ，MP /*MP 为 信任 传播 最 大 距离 */。 
输出 : Wm 
1.uers= 用 户 数 量 ; 
2. tmp=Iusersxusers; /* 初 始 化 临时 用 户 和 矩阵 */ 
3.mt=Qusersxusers; /* 初 始 化 用 户 和 矩阵 */ 


4.foreach i-1 to MP do ( 
5. tmp - tmp * T; 


6. mt = mt «(1/i)setdiff(mt, tmp);  /* 计 算 信 任用 户 2 
间 的 差异 */ 

7.} 

8.foreach (ui, uj) do ( // 裔 历 每 对 用 户 


9. if PCC(ui, Wj) 与 MT(ui，Uj) 两 者 均 存 在 { /* 同 时 存在 PCC 
图 与 MT 值 */ 


10. (Ws, Wnt) = (PCC(ui, uj), 0); 
11. else if FØ PCC(ui, uj) { 

12. (Ws, Wnt)=(PCC(Ui, uj), 0): 
13. } else if FE MT(ui, uj) ( 

14. (Ws, Wnt)=(@, MT(ui, uj)): 
15. } 

16.  Wg(ui, Uj)=(Ws, Wnt); 

17.} 


图 1 所 示 是 包含 八 个 用 户 的 社交 网 络 实例 。 其 中 图 1(a) 
是 PCC 相似 性 图 ，(b) 是 社交 网 络 的 直接 信任 关系 图 ，(c) 是 
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^H 


ign, 两 个 连接 | 


出 ， 社 交 网 络 图 可 能 不 是 一 个 全 连接 图 ， 根 据 六 度 空间 理 
户 之 间 最 长 距离 为 六 跳 。 将 图 1a)、 (b). 


(9) 三 者 组 成 图 1(d) 的 图 ， 该 集成 程序 可 能 为 扳 立 的 分 区 建立 


连接 , 该 程序 有 助 于 提高 覆盖 率 。 图 中 u 表示 用 户 , 图 1(b)、 


(c) 中 边 的 值 为 两 个 用 户 之 间 的 pec 值 。 图 中 信任 w3， us 7 
信任 uno uius 的 权重 为 (pec(uiux),T(uius))-(pec(uius), 1); 


而 wa 一 ui 的 权重 为 (pec (us, u1),0)， 因 此 图 为 有 向 图 。 
pec(ui,us)-pec(us,ui) E. e 
EN 
^ 1 (23) 5b ope 6 )3 
KW 3S AG, UE 6 OR 
D SAX A 1 < 
to CE M. E E $9 i y 
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agent 系统 ,能 够 分 布 式 地 求解 问题 , 并 且 具 有 较 强 的 全 局 搜 
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(a) PCC 相似 性 图 

(a) PCC similarity graph 

GN 1 zx 

1) » 3 | 
Seca C 


COME. 
e t] | 8) 
"7 ~ 7 
M 
p fa (4 1 
(3) i K (8) 
系 图 


(b) 社交 网 络 的 直接 信任 关 


(b) Direct trust relationship graph of social networks 


(c) 社交 网 络 的 信任 传播 图 


(c) Trust propagation graph of social networks 
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(d) 最 终 建 立 的 二 维 图 模型 
(d) Finally constructed two dimensional graph model 
图 1 包含 八 个 用 户 的 社交 网 络 实例 


Social networks example including eight users 


Fig. 1 
蚁 群 算法 的 背景 知识 
人 工 蚁 群 算 法 (ant colony optimization, ACO)JI0 是 一 种 多 


能 力 与 局 部 开发 能 力 。 蚁 群 算法 首先 将 问题 建 模 为 一 个 加 


了 
社交 网 络 的 信任 传播 图 ; (d) 是 最 终 建 立 的 图 模型 。 从 图 1 可 


权 


图 ， 然 后 搜索 图 中 的 最 优 路 径 。 人 工 蚂蚁 通过 游 走 产生 可 
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行 解 ,蚂蚁 间 互 相交 换 信 息 ,并且 在 边 或 者 节点 释放 信息 素 。 qno) 0) 
ACO 中 蚂蚁 释放 信息 素 的 过 程 可 定义 为 "= In(k) 
Q un Wm 其 中 :为 网 络 中 的 用 户 数 量 ; 为 网 络 的 平均 度 , 假 设 sim(a, 
(0.—p)r,*-——, if 蚂蚁 k 使 用 曲线 ap 在 其 路 径 中 ` 、 
í O YRR a 5 u 的 相似 性 ， 基 于 PCC 的 相似 性 计算 为 
(1- D)rw， 其 他 情况 


其 中 : zw 为 蚂蚁 在 边 ea 上 释放 的 信息 素 ; p 为 信息 素 的 挥发 
系数 ; Li 为 蚂蚁 上 搜索 解 的 成 本 ; 0 为 一 个 常量 。 为 了 防止 
ACO 陷入 局 部 最 优 ， 信 息 素 应 当 随 着 时 间 挥 发 ， 从 而 提高 控 
索 新 解 的 可 能 性 。 人 工 蚂蚁 在 游 走 过 程 中 选择 信息 素 较 高 的 
路 径 ， 蚂 蚁 大 从 状态 a 变 为 状态 b 的 概率 为 
Tanh 

ph = i 2) 
其 中 :a 为 控制 ta 影响 力 的 参数 ;Wus 为 状态 a 变 为 状态 b 
的 可 能 性 ;0 为 控制 yw 影响 力 的 参数 。 
3 ”本 文 的 算法 设计 
3.1 产生 合适 的 用 户 分 组 数量 
社交 网 络 的 覆盖 率 与 分 组 数量 没有 相关 性 ， 因 此 ， 可 将 
搜索 出 的 第 一 个 分 组 数量 作为 聚 类 算法 的 分 组 数 。 
3.2 确定 用 户 分 组 的 中 心 用 户 

采用 K-medoids 算法 [9 搜索 用 户 分 组 的 中 心 用 户 。 
K-medoids 算法 的 目标 函数 (也 定义 为 
F-min 2, X dist(m,n) 3) 


其 中 : C 为 类 的 集合 ;dist(m, 站 表示 二 维 图 中 用 户头 与 款 的 
距离 。 因 为 图 中 每 条 边 为 双 权重 ， 所 以 用 户 间 的 距离 计算 为 
dist? (u,v) = dł (u,v) + d} (u,v) (4) 
其 中 : 2 与 v 为 两 个 目标 用 户 ; ds 为 相似 性 距离 ， 计 算 方法 


dg (u,v) 31-WgP 6 (u,v) (5) 
dr 为 信任 距离 ， 计 算 方法 为 
dr (u,v) 1 Wgp- (u,v) (6) 
3.8 基于 ACO 的 社交 网 络 聚 类 
3.2 节选 出 了 用 户 分 组 的 中 心 用 户 ， 然 后 寻找 与 中 心 用 


户 相似 性 高 的 用 户 组 。 该 过 程 主 要 包括 排列 处 理 、 加 权 处 理 、 
预测 处 理 三 个 步骤 。 
3.3.1 初始 化 排列 处 理 

该 步骤 的 目标 是 基于 信任 信息 与 评论 信息 计算 各 个 用 户 
与 目标 用 户 (中 心 用 户 ) 之 间 的 相似 性 值 , 提取 出 top-n 的 相似 
用 户 。 如 果 用 户 之 间 存 在 直接 信任 关系 ， 如 好 友 关 系 、 关 注 
关系 等 ， 那 么 直接 计算 信任 值 ， 如果 用 户 之 间 不 存在 直接 信 
任 关 系 ， 那 么 根据 提取 隐藏 的 信任 关系 ， 如 评论 信息 、 评 分 
言 息 等 。 如 果 用 户 x 与 目标 用 户 a 之 间 不 存在 直接 的 信任 关 
系 , 使 用 PCC 根据 评论 信息 或 者 评分 E s u 5j a 的 信任 
值 ,网 络 的 节点 表示 用 户 , 边 的 权重 表示 之 间 的 相似 性 。 
基于 信任 的 用 户 相似 性 计算 品 ] 为 


2x sim(a,u)xT, . 
SRI RS, sim(a,u) * T,,, € 0 


E: 


sim(a,u) * T, , 
Wau =} Taus 


sim(a,u), 


sim(a,u) =0,T,, #0 (7) 
sim(a,u) #0,T,, =0 


其 中 :Taw 为 目标 用 户 a 与 用 户 w 之 间 的 信任 值 ， 计 算式 为 
d,,,—d,,*1 


AN eT 
PEE (8) 


其 中 : dau RR a 与 4 之 间 的 信任 传播 距离 ， dmer 为 最 大 的 信 
任 传 播 距离 ，dour: 设 为 图 中 的 平均 路 径 长 度 。 


Ea 000-7 r(0)(na)0- rao) 
Eal (na) - ra) RS COO 


其 中 : rA u 对 于 项 目 i E; ra) 为 用 户 u 的 平 


均 评 分 值 ，4a 为 用 户 a 与 u 评分 的 项 目 集合 。 最 终 ， 将 相 
似 性 高 于 靖 值 9 的 分 为 一 个 用 户 组 。 

3.3.2 二 维 图 模型 的 加 权 处 理 

采用 ACO 处 理 top-n 用 户 ， 分 析 他 们 的 重要 性 。 
建立 用 户 的 二 维 图 ; 然后 ， 蚁 群 在 图 中 游 走 以 调节 各 个 用 户 
与 目标 用 户 的 相似 性 。 

1) 建立 用 户 二 维 图 

首先 ， 选 择 与 目标 用 户 top-n 相似 的 用 户 ; 然后 ， 为 社 
交 网 络 建立 第 1 章 的 二 维 图 ， 其 中 节点 表示 用 广 
表示 用 户 之 间 的 相似 性 ( 式 (7) 计 算 )， 权 重 的 取 值 为 [0,1]。 轿 
2(a) 所 示 是 一 个 社交 网 络 的 二 维 图 例子 ; RHF 
3 的 子 图 。 启发 式 信息 与 期 望 信 息 是 ACO 算法 的 两 个 主要 元 


sim(a,u) — 


(10) 


i 


素 ， 启 发 式 信息 MELLE 


(0,1/2) 


(ppc(us.us),0) 
(a) 社交 网 络 的 二 维 图 例子 


(a) Two dimensional graph example of social networks 


Ds 


户 3 的 子 


(b) 目标 
(b) Sub-graph of target user 3 


于 2， 提取 中 心 用 户 子 网 的 实例 
Fig.2 Example of sub-network of center user abstraction 
2) 蚁 群 游 走 策略 
初始 化 阶段 ， 将 蚁 群 随机 置 于 图 中 ， 然 后 蚁 群 在 游 走 过 
程 中 更 新 信息 素 。 蚂 蚁 根据 用 户 与 目标 用 户 的 相似 性 释放 合 
适 的 信息 素 量 ， 蚂 蚁 基于 一 个 路 由 表 在 图 中 游 走 。 蚂 蚁 从 
节点 i 移 至 节点 j 的 概率 定义 为 


İz; Tn; r zif je Nk an s2 
BO) =9 Dwi En [ral (11) 
0, if je Nf 


其 中 : Nr 为 节点 i 的 邻居 集 ; z 为 信息 素 量 ; 7 为 启发 值 ， a 
与 分 别 为 控制 tc 与 权重 的 参数 ， y=1/sim(wi,t); m 为 沿 
未 访问 的 用 户 。 式 (11) 的 概率 函数 能 够 防止 算法 陷入 局 部 最 
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优 ， 在 社交 网 络 中 该 函 
余 度 低 的 用 户 集 。 

3) 信息 素 更 新 方法 
ACO 中 信息 素 反映 了 蚂蚁 求解 一 个 问题 的 经 历 , 信息 素 
的 更 新 反映 了 蚂蚁 的 解 质量 。 文 中 节点 的 信息 素 表 示 用 户 与 


数 能 够 选择 与 目标 用 户 


兴趣 相似 、 


目标 用 户 的 相关 性 ， 用 户 wu 信息 素 的 更 新 方法 为 
T, T, P: (12) 
其 中 : u WAP wi 的 信息 素 ; An 表示 昌 蚁 在 用 户 i 释放 
的 信息 素 量 。A 反映 了 解 的 质量 ， 计 算 方法 为 
- _ u; eU* 
Arb =4 cost(U*) —' (13) 
0, u; U+ 


;不 为 蚂蚁 大 经 历 的 用 户 集 ; cost( UNEN 
发 现 解 的 质量 。 每 次 迁 代 结束 ， 更 新 所 有 节点 的 信息 素 : 
Tu t, p) (14) 
其 中 : o 为 信息 素 的 挥发 速率 。 采 用 平均 误差 指标 计算 每 个 
解 的 质量 ， 每 个 解 由 一 个 用 户 集 及 其 权重 组 成 。 

3.3.3 低 活跃 用 户 的 预测 处 理 


对 于 缺少 评论 信息 的 用 户 ， 根 据 与 其 最 相似 的 用 户 评论 
预测 其 对 目标 用 户 的 评论 。 预 测 方法 为 
i Nm Whi 
和 (15) 


veU " 


Hp: nas 为 目标 用 户 HPRH i 的 预测 评论 :U0 为 蚂蚁 


选择 的 用 户 集 ; rwi 为 v 对 项 目 i 的 真实 评分 ， wy 为 v 的 信息 
素 。 每 个 解 的 成 本 计算 为 预测 值 与 真实 值 之 间 的 误差 。 
fitness(u) = Xen 人 — d (16) 


IL] 


其 中 : 五 为 预测 的 项 目 数量 。 
该 处 理 的 目标 是 根据 活跃 
EE , 该 处 理 有 助 于 缓解 社交 网 络 中 普 
Vii E De] LASS 
3.4 算法 总 体 设 计 
初始 化 阶段 ， 每 个 节点 的 信息 素 设 为 常量 ce， 蚁 群 随机 
置 于 图 中 各 节点 的 位 置 。 每 个 蚂蚁 基于 式 (11) 在 图 中 游 走 ， 
蚂蚁 可 能 选择 不 同 数量 的 用 户 集 。 蚂 蚁 根据 (12) 式 更 新 各 个 
用 户 的 信息 素 。 考 虑 信息 素 的 挥发 ， 在 每 次 迭代 的 结束 阶段 
根据 式 (14) 进 行 信息 素 的 全 局 更 新 。 重 复 上 述 步 又， 直至 达 
到 结束 条 件 。 将 用 户 按 重 要 性 降序 排列 ， 选 择 top-k 的 用 户 
作为 最 终 的 子 集 。 
算法 2 所 示 是 GC-ACO 算法 的 伪 代 码 。 算 法 的 输入 变量 
R, T, m, Namn NI 分 别 表示 评论 信息 (评分 )、 信 任 信息 、 用 
户 数量 、 目 标 用 户 、 蚁 群 规模 、 友 代 次 数 。 算 法 步骤 如 下 : 
a) 计 算 目 标 用 户 与 其 他 用 户 的 相似 性 ， 选 择 相 似 性 高 于 0 的 
用 户 输入 ACO 算法 处 理 ;b) 采 用 ACO 为 用 户 分 配 权重 , ACO 
的 每 次 迭代 中 ， 昭 蚁 在 图 中 游 走 ， 选 择 目标 用 户 的 一 个 相似 
用 户 集 ， 步 又 b) 的 输出 是 一 个 包含 信息 素 值 的 用 户 集 ; c) 通 


] 户 的 信息 预测 低 活跃 用 户 的 
遍 存 在 的 冷 启动 问题 、 


叶 小 营 ， 等 : 基于 图 聚 类 与 蚁 群 算法 的 社 
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/* 采 用 ACO 计算 用 户 的 权重 */ 
3. 建 立 用 户 的 二 维 图 ; 

4. 初 始 化 图 中 节点 的 信息 素 ; 
5.foreach i = 1 to NI ( 
6. 随机 分 布 蚁 群 ; 


7. foreach j = 1 to Nart { 

8. Uk = []; 

9. while (Ani Hl P BB ABIT MB) { 
10. 选择 下 一 个 未 访问 的 用 户 u，// 式 (11) 
11. T£ u 加 入 向 量 Uk 中 ; 

12. H 

13. 计算 适应 度 ，// 式 (16) 

14. 更 新 信息 素 ; // 式 (12) 

15. } 

16. ”更 新 全 局 信息 素 ; // 式 (14) 

17.} 


/* 低 活跃 用 户 的 预测 */ 

18. 基 于 信息 素 将 用 户 降序 排列 ，; 

19.351€ top-k HP; 

20. fW a 的 未 知 评价 
3.5 GC-ACO 算法 的 复杂 度 分 析 

算法 2 的 步骤 a)， 因 为 每 对 用 户 之 间 的 相似 性 依赖 用 户 

的 总 数量 , 所 以 计算 复杂 度 为 O(n?), 第 二 行 选择 相似 性 高 于 
0 的 用 户 , 设 为 三 |SUIl, 建立 包含 1 个 用 户 的 二 维 图 ,步骤 b) , 
该 步骤 的 迭代 次 数 为 NI， 其 计算 复杂 度 为 O(NI * Nan * P), 
如 果 采 用 分 布 式 处 理 , 那么 该 步骤 的 复杂 度 可 降 为 O(N *P). 
步骤 c)， 该 步骤 的 计算 复杂 度 为 O(1 log). RA, KERR 
总 体 计算 复杂 度 为 OOx2+NMT。P+1log I). 


4 ”实验 与 结果 分 析 


推荐 系统 是 社交 网 络 聚 类 技术 的 一 个 重要 应 用 场景 ， 
用 文献 [5,14] 的 实验 方案 , 将 要 RON SPINE RAE 
合 ， 通 过 推荐 系统 的 效果 评估 社交 网 络 推荐 技术 的 效果 。 采 
用 三 个 数据 集 测试 GC-ACO 算法 的 聚 类 性 能 。 实 验 环 境 为 
PC 机 ，PC 机 的 配置 为 8 GB 内 存 ，i7 8700 处 理 器 。 采 用 五 


折 交 又 检 验 的 实验 方案 ， 将 每 个 数据 集 分 为 五 个 子 集 ， 每 次 
ETE II 


选 代 中 随机 选择 四 个 子 集 作为 训练 集 ， 另外 一 个 子 集 
试 集 。 
4.1 性 能 评价 指标 
采用 三 个 经 典 的 


E 荐 系统 性 能 指标 , 即 均 方 误差 (MAE)、 
根 均 方 误差 (RMSE)、 和 覆盖 率 (RC)。MAE 用 于 评估 预测 的 准 
确 率 。MAE 计算 预测 评分 值 与 真实 评分 值 之 间 的 差异 。 


1 ^ 
MAE- 7 [s -r| (17) 


其 中 : Z、 与 rw 分 别 为 用 户 w 对 于 项 目 j 的 评分 数量 、 估 


计 评 分 数量 以 及 真实 评分 数量 。RMSE 也 是 评估 推荐 系统 性 
E 的 一 个 指标 ， 该 指标 度量 了 预测 评分 与 真实 评分 的 绝对 误 


过 预测 程序 提高 低 活跃 用 户 的 聚 类 效果 与 履 盖 率 。 
算法 2 基于 二 维 图 与 ACO 的 社交 网 络 聚 类 算法 
输入 : R, T, m, Nas NI. 
输出 : 与 目标 用 户 相 似 的 用 户 集 。 
/*# 基 于 评论 信息 与 信任 信息 初步 筛选 用 户 */ 
1 .计算 目标 用 户 a 与 其 他 用 户 的 相似 性 ; //(1) 式 
2.SU= 选 择 相 似 性 高 于 阔 值 6 的 用 户 集 ; 


(18) 


RC 从 另 一 个 角度 评估 推荐 系统 的 性 能 ， 评 估 了 推荐 系 
统 对 长 尾 商 品 的 挖掘 能 力 。RC 的 计算 方法 为 
预测 的 评分 数量 


RC=— 
所 有 的 评分 数量 (19) 
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4.2 ”实验 数据 集 

采用 三 个 数据 集 作 为 benchmarks. 数据 集 ， 
FilmTrust, Epinions, Ciao 数据 集 。FilmTrust 是 
荐 网 站 的 真实 数据 集 , 该 网 站 的 用 户 对 电影 进行 评论 与 评分 ， 
用 户 之 间 也 可 添加 好 友 并 分 享 观点 。FilmTrust 数据 集 的 评分 
为 实数 ， 范 围 为 0.5-4. Epinions 数据 集 包括 多 种 社交 关系 ， 
包括 对 项 目的 评论 与 评分 以 及 用 户 之 间 的 信任 关系 ， 评 分 为 
整数 ,范围 为 1~5; 信任 关系 为 两 个 值 :“1” 表 示 信 任 ,“0” 
表示 不 信任 。Ciao 数据 集 的 评分 为 整数 ， 范 围 为 1~5。 三 个 
benchmark 数据 集 的 相关 信息 如 表 1 所 示 。 


分 别 为 
个 电影 推 


E 


m 


pul 


Ch 
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表 3 推荐 系统 对 于 FilmTrust 数据 集 的 MAE 与 RMSE 结果 
Table3 MAE and RMSE results of recommender systems applied to 
filmtrust dataset 
数据 集 ”指标 TrustSVD TrustMF Yilmaz | GC-ACO 
冷 启 动 ” MAE 0.650 0.619 0.722 0.586 

RMSE 0.845 0.882 0.931 0.758 
Mif MAE 0.829 0.907 0.841 0.793 
RMSE 1.059 1.249 1.084 1.003 
完整 集 MAE 0.607 0.721 0.685 0.496 
RMSE 0.787 0.919 0.912 0.721 


表 1 benchmark 数据 集 的 相关 信息 表 4 推荐 系统 对 于 Epinions 数据 集 的 MAE 与 RMSE 结果 
Table 1 Related information of benchmark datasets Table 4 MAE and RMSE results of recommender systems applied to 
EFE FilmTrust Epinions Ciao Epinions dataset 
p 1508 40163 30444 数据 集 “指标 —— TrustSVD TrustMF Yilmaz GC-ACO 
项 2071 139738 72665 冷 启 动 MAE 0.861 0.934 0.871 9.795 
评分 35497 664824 1625480 RMSE 1.117 1.373 1.124 1.026 
ERE 609 33960 6792 Wii MAE 0.829 0.856 0.824 0.801 
受信 任 者 732 49288 7297 RMSE 1.096 1.19 1.082 1.033 
FEE 1853 487183 111781 完整 集 MAE 0.834 0.877 0.852 0.769 
为 了 测试 本 算法 对 稀疏 性 问题 、 冷 启动 问题 的 效果 ， 按 RMSE 1.094 1.184 1.101 1.021 
照 两 种 条 件 进 一 步 划 分 数据 集 , 划分 条 件 为 : a) 冷 启动 用 户 ， 表 5 推荐 系统 对 于 Ciao 数据 集 的 MAE 与 RMSE 结果 
提取 评分 数量 少 于 5 的 用 户 集 ; ORREN, HERF A Table 5 MAE and RMSE results of recommender systems applied to 
量 少 于 5 的 项 目 ; c) 全 部 用 户 集 。 表 2 所 示 是 划分 子 数据 集 Ciao dataset 
的 相关 信息 。 数据 集 ”指标 TrustSVD TrustMF Yilmaz GC-ACO 
表 2 划分 子 数据 集 的 相关 信息 冷 启 动 MAE 0.725 1.073 0.747 0.688 
Table2 Related information of datasets division RMSE 0.939 1.311 0.932 0.903 
划分 条 件 数据 集 实例 数量 评分 数量 RE MAE 0.503 1.209 0.532 0.516 
冷 启动 FilmTrust 281 608 RMSE 0.659 1.493 0.675 0.632 
Epinions 16910 33632 完整 集 MAE 0.723 0.505 0.491 0.503 
Ciao 12006 20985 RMSE 0.955 0.493 0.670 0.659 
iibi P FilmTrust 1653 3162 履 盖 率 指标 是 推荐 系统 与 社交 网 络 的 重要 指标 ， 统 计 了 
Epinions 116152 175906 四 个 推荐 系统 的 覆盖 率 结果 ， 结 果 如 图 3 所 示 。 从 图 中 可 看 
Ciao 9423 24722 出 ， 四 种 算法 均 实 现 了 较 高 的 覆盖 率 ，TrustMF、Yilmaz 5 


4.3 参数 设置 

通过 多 组 预 处 理 实验 选择 出 最 优 的 参数 配置 : 最 大 循环 
次 数 设 为 70, 初始 化 信息 素 与 信息 素 挥发 系数 分 别 设 为 0.02 
502. 234a. B. Q 分 别 设 为 o=0.6, 6=0.4, Q=1.66， 用 户 
的 邻居 数量 设 为 2~30。 蚁 群 的 蚂蚁 数量 等 于 各 个 数据 集 的 用 
户 数 量 。 
4.4 实验 结果 

选择 近期 两 个 基于 社交 网 络 的 推荐 系统 与 一 个 基于 智能 
优化 的 推荐 系统 作为 对 比 算 法 ， 分 别 为 : a) 基 于 信任 与 用 户 
评分 的 推荐 系统 TrustS V DU?) b) 基 于 信任 与 矩阵 分 解 的 推荐 
系统 TrustMF04; c) 基 于 遗传 算法 的 推荐 系统 Yilmaz!” 
4.5 不 同 数据 集 的 推荐 性 能 

将 TrustSVD, TrustMF, Yilmaz 与 GC-ACO 四 种 算法 对 
冷 启动 数据 集 、 稀 疏 数 据 集 以 及 完整 数据 集 进行 了 推荐 实验 ， 
统计 每 组 实验 的 MAE 与 RMSE 指标 的 结果 ， 表 3~5 分 别 是 
FilmTrust, Epinions 与 Ciao 数据 集 的 实验 结果 。GC-ACO $ 
法 对 于 FilmTrust、Epinions 两 个 数据 集 的 准确 率 较 好 ， 优 于 
其 他 三 个 推荐 系统 。 对 于 Ciao 数据 集 也 取得 了 较 好 的 结果 ， 
但 其 对 完整 数据 集 的 推荐 准确 率 略 低 于 TrustMF 系统 ， 对 稀 
玻 数据 集 的 推荐 准确 率 略 低 于 TrustSVD 系统 。 总 体 而 言 ， 
GC-ACO 取得 了 较 好 的 推荐 效果 ， 对 于 冷 启 动 问题 与 稀 疏 性 
问题 均 实 现 了 加 好 的 缓解 效果 。 


cr 


GC-ACO 三 个 ] 


盖 率 则 略 高 于 TrustMF 与 Yilmaz 算法 。 


EFRADI AT 0.9， 而 本 算法 的 履 
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Fig. 3 Coverage rate results of different recommender systems 
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FilmTrust, Epinions 与 Ciao 数据 集 的 收敛 曲线 分 别 如 图 5 ”结束 语 

4(a)~(c) 所 示 。 从 图 中 可 看 出 ， 本 算法 的 收敛 速度 与 准确 率 结 
果 均 优 于 Yilmaz 算法 。 本 算法 的 全 局 搜索 能 力 较 强 , 实现 了 针对 社交 网 络 中 社交 关系 的 有 向 性 与 多 样 性 ， 本 文 提 出 
较 好 的 准确 率 ,局 部 开发 能 力 较 强 , 实现 了 较 快 的 收敛 速度 。 了 一 种 基于 图 聚 类 与 蚁 群 算法 的 社交 网 络 聚 类 算法 。 在 履 盖 
式 (11) 的 概率 函数 防止 蚁 群 算法 陷入 局 部 最 优 ， 从 而 实现 了 率 的 约束 下 建立 二 维 图 ， 从 而 保证 覆盖 率 与 聚 类 准确 率 两 者 
较 强 的 全 局 搜索 能 力 ， 式 (11) 未 使 用 贪 禁 机 制 ， 使 得 低 概率 ”之 间 的 平衡 。 在 图 的 构建 过 程 中 ， 考 虑 了 直接 信任 关系 、 信 
用 户 依然 具有 被 选择 的 可 能 性 。 另 外 ， 第 一 步 对 用 户 进行 了 任 传 播 、 评 论 信息 等 多 样 化 信息 。 本 算法 取得 了 较 好 的 推荐 
初步 筛选 ， 使 得 本 算法 保持 了 较 高 的 开发 能 力 ， 并 且 缩 小 了 效果 ， 对 于 冷 启 动 问题 与 稀 玻 性 问题 均 实 现 了 较 好 的 缓解 罗 
解 空间 。 本 算法 采用 了 丰富 的 直接 信任 关系 与 间接 信任 关系 ” 果 。 本 算法 采用 了 丰富 的 直接 信任 关系 与 间接 信任 关系 建立 
建立 图 中 的 权重 ， 该 机 制 使 蚁 群 在 迭代 初期 即 可 快速 、 高 效 图 中 的 权重 ,该 机 制 使 蚁 群 在 迭代 初期 即 可 快速 、 高 效 地 在 
地 在 图 中 游 走 ， 因 此 本 算法 实现 了 较 好 的 开发 能 力 与 收敛 速 图 中 游 走 ， 因 此 本 算法 实现 了 较 好 的 开发 能 力 与 收敛 速度 。 
度 。 未 来 将 考虑 引入 更 多 的 隐藏 社交 信息 与 外 部 信息 以 增强 社交 
060 — 网 络 的 判断 依据 ， 如 用 户 档案 、 评 论 上 下 文 以 及 行为 轨迹 等 
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